[レポート]一人データエンジニアの過去・現在・未来 ~データ基盤構築を通じて乗り越えたい壁とは~ #01pN
2024.12.10
さがらです。
2024年12月10日に、primeNumber社主催のイベント「01(zeroONE) 2024」が開催されました。
本記事は、セッション「一人データエンジニアの過去・現在・未来 ~データ基盤構築を通じて乗り越えたい壁とは~」のレポートブログとなります。
登壇者
- 株式会社IVRy Principal Engineer 成田 一生 氏
- 株式会社HR Force DS統括部DXグループDataチームマネージャー 鈴木 凌 氏
- 株式会社mento 取締役CTO 松山 勇輝 氏
- 株式会社primeNumber マーケティング本部 コミュニティマネージャー 北川 佳奈 氏
自己紹介
- 北川 氏
- 元クラスメソッド、現在はprimeNumber社のコミュニティマネージャー
- 成田 氏
- 一番長いキャリアはクックパッド、2016年~2022年はCTOをしていた
- 現在は、Ivry社で1エンジニアとして、SRE + データ基盤を担当
- 鈴木 氏
- データチームのマネージャー
- 以前はセールスを担当していたが、Salesforce管理をすることになり、その後データ基盤の管理を行うようになった
- 松山 氏
- 本来はデータサイエンティストの担当が登壇予定だったが、妻が陣痛で急遽登壇
データ基盤構築の目的は?
- 成田 氏
- ビジネスモデルの関係上、非構造の音声データを保持している
- ただBigQueryにいれるだけでなく、データのパイプラインを整えることでより価値を出せると考え、データ基盤の開発を実施
- スタートアップで何が当たるかわからない状況もあり、「とにかく保存しておこう」という意識で整っていないところも感じつつ、データも貯めている
- 鈴木 氏
- 現場レベルで苦労していたため、データ基盤の導入を決定
- BoxにあるCSVを開くのに30分かかるような時代があった
- そんな時にデータ基盤の話を知り、この課題を解決するために導入を決定
- 松山 氏
- mentoはコーチングのサービスのため、価値が伝わりづらい所が正直ある
- そこでデータに沿った意思決定を行うために、データ基盤に早期に投資をしている
- 可視化している指標のイメージは、SalesforceやHubspotのデータをBigQueryに入れて、可視化してセールスの生産活動がデータによって行われることに重きを置いている
- Salesforceにデータを入力してくれる人は最初少なかった。入れることで自分の意思決定・生産活動が上がることを理解してもらうために半年かかった
データ基盤に関わったときの状況は?現状はどう変わったのか?
- 成田 氏
- サービスはAWS、データ基盤はBigQueryという状況だった
- サービス側のスキーマが変更されたことで、データ基板側も壊れるということが頻繁にあった
- troccoを入れてスキーマ追従してメンテフリーにしたいと考えて作り変えた
- 鈴木 氏
- BigQueryはあったが、利用者は2人。データも適切に更新されない状況があった
- 現在は、Snowflakeに移管し、ある程度基盤の構築は落ち着いた。SQL書けば数秒でデータを得られるようになった
- 松山 氏
- 最初は何もない、「無」だった。
- 「無」のときには、売上を達成するためにリソースをどれだけ出せばいいかということができなかった
- データ基盤を作ることで、今後の売上を予想できるようになった
- 現在は動画や音声のデータが溜まってきて、生成AIを活用するビジョンが見えてきた
実際に取り組んだ上で大変だったことは?どうやって解決した?
- 成田 氏
- 最初はデータを使うことでの現場での認識ずれや疑問などがあった
- まだ解決中のところもあるが、徐々に運用する中で知見も溜まっていき、解消されていった
- データのテストを入れて不整合を見る活動もしている
- 鈴木 氏
- 知見を誰も持っていなく、外注するほどのROIを誰も出せなかったので、自分が一人でやるしかない状況だった
- どうやって解決したかと言うと、Snowflakeのコミュニティにたくさん参加した。参加する中で、知見を得られた。大感謝です!
- 松山 氏
- 運用が一番大変だった。どのように業務に組み込んで回していくかに苦労した
「今すぐやること」と「あとでやること」の切り分けで大事にしている軸や考え方はありますか?
- 成田 氏
- お客様に対してダッシュボードを提供しているが、これも同じデータ基盤を利用している
- 成田氏はサービス側もデータ基盤も理解している人間のため、「troccoでクエリ書けばすぐできますよ」と回答してすぐに取り組んでいた
- 「お客様に価値を届ける」ところを優先して取り組んだ
- 鈴木 氏
- 経営や売上に関する所を最優先に取り組んだ。現場から始めた基盤だったため、経営層にとって価値を感じてもらうために。
- 松山 氏
- 小さいスタートアップのため、やらないといけないことしかない
- 悩んでいる時間すらもったいないため、それをいかに速く片付けることに重きを置いている
- あえていえば、ビジネスインパクトが大きい順で、その後はいかに速く片付けるようにしている
使ってもらえるデータ基盤を構築する上で、組織上気をつけている点はあるでしょうか?(組織規模が大きくなってデータ基盤専任チームができたが、利用者と距離ができてしまった、という背景から)
- 成田 氏
- 「どうやって使ってもらえるか」を考えたことがない
- 前職ではRedshiftの基盤で非エンジニアの方に使ってもらうために、SQL勉強会など地道に開催していた
- ダッシュボードでまず見える化することにも取り組んだ
- 松山 氏
- めっちゃ使ってもらっていたら、どんどんニーズが出てくると思うため、今はまだ基盤を使い切れていないのでは、と感じた
- 大事なのは、各人の業務にデータ基盤が組み込まれているか、だと思う
- もし活用方法がわからない人がいたら、データ基盤を用いてどのようにワークフローを組んで業務ができるか、まで踏み込んで提案している
データの入力にメリットを感じさせるのは困難だと思うが…
- 成田 氏
- データの入力は勤怠と同じ。データに残っていないとあなた何もやってないですよね、とも言える
- 今は会社の文化としてデータを見ることが醸成されているので、上記のように言えるところもある
- 鈴木 氏
- 組織によってはデータ基盤がなくても全然業務が回ることはある
- データを管理する側の人間から、ビジネス側に対して「データを使うことでこうできますよ」と引っ張っていくことが大事だと思う
- ビジネス側は「Snowflakeってなに、SQLってなに」というステータスなのでこちらから歩み寄る必要があると思う
- 松山 氏
- 「これが達成できるとこういう世界が見えますよ」というのを、可視化して見せてあげる
- 一方で、トップダウンで強制させるという考えもある。「Hubspotの商談ランクを必ず入れてね」というアプローチなど。
- 半年以上かかっても、アプローチしていくことが大事
最後に来場者の皆さんへ
- 成田 氏
- まだデータエンジニアの領域は初心者なので、コミュニティの力に助けてもらうこともあると思います。これからもよろしくお願いします
- 鈴木 氏
- 一人でやっていても、複数人でやっていても、やることは変わらないはず。みんな一緒に頑張りましょう!
- 松山 氏
- これからデータを扱うことがどんどんおもしろくなっていく、今後もコミュニティを盛り上げていきたい
所感
私も事業会社にいた時、「データ基盤?なにそれ?」状態でTableauのダッシュボードを日時更新するためのデータパイプラインを整備したり、基盤を整備したりダッシュボードを作っても使われない経験があったので、登壇者の皆様の言葉がどれも染みました…
ROIも見えない状況だと最少人数の体制でデータ基盤を構築していくことが多く辛くなることもあると思いますが、そんなときは鈴木さんのようにコミュニティに顔を出していくのは一つの対策としてありだなと同感しました。(データエンジニアのコミュニティは温かい雰囲気があると私も感じていますし。)